全新中文大模型多任务基准CMMLU：评估中文多任务语言理解能力

Original 李浩楠 PaperWeekly 2023-09-02

收录于合集

©PaperWeekly 原创 · 作者 | 李浩楠

单位 | MBZUAI

研究方向 | 自然语言处理

如何评估大模型（LLM）的语言能力和知识储备一直备受学术界和工业界的关注。本文介绍了 CMMLU，一个全面的中文大模型基准。它涵盖了 67 个主题，涉及自然科学、社会科学、工程、人文、以及常识等，可以全面地评估大模型在中文知识储备和语言理解上的能力。我们测试近 20 个先进的大模型包括最新的 GPT4，ChatGLM2 和 Baichuan-7B 等，我们发现大多数现有模型的难以达到 50％准确率，而随机准确率为 25％。

本文由 MBZUAI，上海交通大学，微软亚洲研究院合作完成。

论文题目：

CMMLU: Measuring massive multitask language understanding in Chinese

论文链接：

https://arxiv.org/abs/2306.09212

数据和代码和最新榜单

https://github.com/haonan-li/CMMLU

引言

在本文中，我们提出了 CMMLU，这是一个全新全面的中文评估数据集，旨在专门评估 LLM 在中文语言和文化背景下的高级知识和推理能力。

CMMLU 涵盖了 67 个主题（如图 1 所示），从小学到大学或专业水平。包括自然科学，以及人文和社会科学领域的学科，更包含了许多具有中国特色的内容，比如“中国饮食文化”，“名族学”，“中国驾驶规则”等等。我们已完全公开了数据，使社区可以自由方便地利用和评估他们的模型在是否适用于以中国为核心的中文人群。完整的学科列表、每个学科测试的概念数量以及问题和答案长度的统计信息均在论文中提供。

▲ 图1

为了更深入地了解 LLM 处理中文知识的能力，我们进行了全面的分析实验。我们首先研究模型在各个学科上的表现。所有模型在不同学科上的表现存在不平衡，人文社科学科得分相对较高，而中国特定主题和自然科学得分较低。为了进一步研究这个问题，我们探索了思路链提示词（Chain-of-Thought）和少样本示例（Few-shot）对于帮助模型理解任务和提高推理能力的有效性。此外，我们研究了模型大小对性能的影响，分析了问题长度与难度之间的关系，并探索了现有语言模型尚未有效解决的两种特定问题类型。

CMMLU测试基准

2.1 数据收集

CMMLU 数据集包含 11,528 个问题，涵盖了 67 个学科。每个学科至少有 105 个问题，我们将其分为包含 5 个问题的训练样本集（few-shot development set），以及包含超过 100 个问题的测试集（test set）。

2.2 数据格式

数据集中的每个问题都是一个包含 4 个选项的单选题，图 2 是一个附加了提示的示例。对于数学公式、化学式和一些其他数学表达式，我们使用约一半的 Latex 和一半的纯文本的混合方式。

▲ 图2

其中只有在一个表达式被广泛使用且不易产生歧义时，才允许使用纯文本（由注释者判断）。例如，水的化学式可以写为纯文本“H2O”，或者使用 Latex 格式“”。

实验

为了在中文语境下提供现有开源 LLM 在语言理解方面的概览，我们评估约 20 个不同规模、语言方向和阶段（预训练或微调）的先进 LLM。我们分析了它们在这个以知识为中心的基准测试上的性能，并研究了可能影响 LLM 性能的几个因素。

3.1 实验设置

我们的目标是评估 LLM 在预训练和/或微调过程中所利用的知识。对于开源模型，我们遵循 MMLU 的方法获取提示后的下一个标记的概率，并在 A’、B’、C’ 和 D’中选择概率最高的选项作为模型的选择。对于 ChatGPT 等非开源模型，我们生成输出并使用一系列正则表达式提取模型的选择。如果正则表达式没有匹配到任何内容，我们会随机选择 A’、B’、C’、D’ 中的一个选项作为答案，以进行模型间的公平比较。我们对零样本（不输入示例）和少样本（输入少量示例）的设置都进行了实验。

3.2 提示词

我们使用短语“以下是关于[主题]的单项选择题，请直接给出正确答案的选项”引入每个问题。对于零样本评估，我们直接在提示后呈现问题。对于少样本评估，我们在问题之前提供多达 5 个带有答案的示例。提示以短语“答案是：”结尾，如图 2 中的示例所示。如果带有少样本示例的文本长度超过模型的最大长度，我们会动态删除最长的（按子标记计算）示例（最新榜单请看 github）。

3.4 主要结果

▲ 表格1

表格 1 显示了在 five-shot 设置下一些模型的性能。可以看出：GPT4 是整体性能最佳的模型，准确度达到 70.95%；在中文特定的 LLM 中，ChatGLM2-6B 模型规模最小却展现出最佳的整体性能，Baichuan-7B 仅次于 ChatGLM2。

从学科类型的角度来看，相对于 STEM 学科，所有模型在人文学科、社会科学和其他学科中表现出更好的性能，我们认为这是由于 STEM 主题的固有难度所致。此外，虽然所有模型在中国特定类别中的表现相对较弱，略微超过其在 STEM 学科中的表现，但明显落后于其他类别。

我们将中文模型 ChatGLM 与多语模型 ChatGPT 在每个学科上进行了比较，并对学科进行了分类，并在图 3 中呈现了结果。具体的数值结果请在论文中查阅。

从图中可以看出，模型的性能并不平衡，虽然在某些学科（如世界历史）表现出色，但在其他学科（如数学）中表现较差。我们观察到，对于 ChatGLM 和 ChatGPT 来说，古汉语和大学精算学是最具挑战性的学科，其结果接近随机。而法律与道德基础则是两个模型中最容易的学科之一。

在大多数情况下，ChatGPT 的性能明显优于 ChatGLM。比如说对于机器学习和计算机安全，ChatGPT 的准确度几乎是 ChatGLM 的两倍。然而，在中国特定类别中，ChatGLM 的性能明显接近 ChatGPT。它甚至在中国历史和高中政治中的表现超过了 ChatGPT。我们认为这是因为与 ChatGPT 相比，ChatGLM 在特别是中国特定类别中遇到了不同的数据来源。这些发现表明，为了适应具有不同语言背景的用户，找到适合的数据来源对于多语种 LLM 非常重要。

3.5 分析

为了全面了解 LLM 在不同条件下的性能，我们探究了三个可能提升模型性能的因素和三个可能降低模型性能的因素。对于大多数分析，我们使用了前 3 个多语种模型：ChatGPT、Falcon-40B、LLaMA-65B，以及前 2 个中文模型：ChatGLM-6B 和 BatGPT-15B。

（具体分析细节请参看论文）

（1）使用逐步思考的提示词：

我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。结果呈现在表格 2 中，所有子类别的细分结果请查阅论文。

我们发现，对于没有进行微调的模型（LLaMA 和 Falcon），使用逐步思考的提示并没有明显提高 STEM 和整体准确度。而对于进行了微调的模型（在表格 2 的第一部分），中文导向的模型（ChatGLM 和 BatGPT）的整体性能下降了约 3%，ChatGPT 的性能也略微下降了 0.2%。这些结果表明，逐步思考的提示确实有助于这些模型回答与 STEM 相关的问题。

（2）增加输入示例的数量：

图 4 展示了使用不同模型在不同数量少样本示例的平均准确率。明显可以看出，当提供一些示例时，大多数模型的性能有所提高。尽管随着示例数量的增加可能会出现波动，但整体趋势显示出性能的提升。然而，对于 ChatGLM 和 BLOOMZ 模型，0-shot 设置的性能优于少样本设置。我们推测这是因为这些模型已经通过预训练或微调过程广泛利用了类似的问题和答案对，已经具备了全面理解问题的能力，不需要示例的支持 [3]。

（3）在同一模型系列中使用更大尺寸的模型：

我们使用 LLaMA 系列模型的四个不同规模进行了考察：7B、13B（训练于 1.0T tokens）、30B、65B（训练于 1.4T tokens）。这些模型的 0-shot 和 5-shot 设置的整体准确率如图 5 所示。从结果中，我们观察到随着模型规模近似翻倍，准确率稳定增加约 5 个百分点。

是否有可能拥有 500B 参数的 LLaMA 模型可以达到与 ChatGPT 相当的性能水平？而最近的研究表明，具有更少参数但使用高质量训练数据的模型可以达到与一些更大模型（Falcon-40B 对比 LLaMA-65B）相当甚至更好的结果 [1]。如何高效地进一步提升 LLM 的性能仍然是一个未解决的问题。

（4）长度较长的问题：

我们将模型的真实标签置信度（四个选项中的 softmax）视为问题难度的估计，并在图 6 中比较了 Falcon-40B 的问题难度与问题长度之间的关系。我们进行了回归分析，发现问题长度与真实标签置信度之间的相关性略微正相关。

（5）含有否定词的问题：

先前的研究指出语言模型可能在处理否定句时遇到困难 [2]。为了研究该问题在中文语境中是否存在，我们比较了不同模型在包含否定词和不包含否定词的问题子集上的性能。结果在表格 3 中展示。

所有模型在包含否定词的问题上的表现相对较差，强调了大型语言模型的这一常见限制。有趣的是，在没有进行微调的模型上，少样本示例缓解了否定问题的性能下降。这使我们推断这些模型（LLaMA-65B 和 Falcon-40B）在预训练过程中已经获得了相当多的知识。随后的指导性微调或通过人类反馈进行强化学习可以帮助它们有效地解决否定问题。

（6）含有子选项的问题：

在各种中文考试中，有一种典型的问题类型称为“子选项问题”。这些问题包括一个主要陈述和多个子选项，并询问子选项的数量、顺序或选择，需要模型具备更深层的推理和推断能力（见图 7 中的示例）。表格 4 显示了评估结果。

所有这些 LLM 在子选项问题上的表现较弱。ChatGPT 在子选项问题上的性能显著下降约 20%，而其他模型的下降范围在 5% 至 15% 之间。对比多语言模型和中文定向模型，子选项问题与其他问题之间的性能差距较大超过 10%，后者性能差距在 10% 以下。这也许是因为训练数据中的这种情况在中文语言中更为常见。

结论

我们介绍了 CMMLU，这是一个具有开创性意义的基准测试，旨在评估中文多任务语言理解能力。我们的实验发现揭示了现有大型语言模型中存在的改进机会。通过广泛的分析，我们确定了影响模型性能的几个因素，并提出了改进 LLM 的可行方向。我们相信我们的基准数据集和分析洞察力将使研究人员能够有效评估和设计中文 LLM。

参考文献

[1] E. Almazrouei, H. Alobeidli, A. Alshamsi, A. Cappelli, R. Cojocaru, M. Debbah, E. Goffinet, D. Heslow, J. Launay, Q. Malartic, B. Noune, B. Pannier, and G. Penedo. Falcon-40B: an open large language model with state-of-the-art performance. 2023.

[2] N. Kassner and H. Schütze. Negated and misprimed probes for pretrained language models: Birds can talk, but cannot fly. In D. Jurafsky, J. Chai, N. Schluter, and J. R. Tetreault, editors, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, pages 7811–7818. Association for Computational Linguistics, 2020. doi: 10.18653/ v1/2020.acl-main.698. URL https://doi.org/10.18653/v1/2020.acl-main.698.

[3] N. Muennighoff, T. Wang, L. Sutawika, A. Roberts, S. Biderman, T. L. Scao, M. S. Bari, S. Shen, Z. X. Yong, H. Schoelkopf, X. Tang, D. Radev, A. F. Aji, K. Almubarak, S. Albanie, Z. Alyafeai, A. Webson, E. Raff, and C. Raffel. Crosslingual generalization through multitask finetuning. CoRR, abs/2211.01786, 2022. doi: 10.48550/arXiv.2211.01786. URL https://doi.org/10. 48550/arXiv.2211.01786.

[4] L. Xu and others from SuperCLUE team. Superclue: A benchmark for foundation models in chinese. https://github.com/CLUEbench/SuperCLUE, 2023.

[5] L. Xu, H. Hu, X. Zhang, L. Li, C. Cao, Y. Li, Y. Xu, K. Sun, D. Yu, C. Yu, Y. Tian, Q. Dong, W. Liu, B. Shi, Y. Cui, J. Li, J. Zeng, R. Wang, W. Xie, Y. Li, Y. Patterson, Z. Tian, Y. Zhang, H. Zhou, S. Liu, Z. Zhao, Q. Zhao, C. Yue, X. Zhang, Z. Yang, K. Richardson, and Z. Lan. CLUE: A chinese language understanding evaluation benchmark. In D. Scott, N. Bel, and C. Zong, editors, Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020, Barcelona, Spain (Online), December 8-13, 2020, pages 4762–4772. International Committee on Computational Linguistics, 2020. doi: 10.18653/v1/2020.coling-main.419. URL https: //doi.org/10.18653/v1/2020.coling-main.419.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

全新中文大模型多任务基准CMMLU：评估中文多任务语言理解能力

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

生成图片，分享到微信朋友圈

全新中文大模型多任务基准CMMLU：评估中文多任务语言理解能力

您可能也对以下帖子感兴趣